소개
안녕하세요 나는 딥 러닝과 AI가 거리에서 인기가 있다고 생각합니다 나는 많은 회사와 개인이 어떤 방법을 시도하고 있다고 확신합니다 평소와 같이, 나는 또한 딥 러닝과 관련된 기술 검증을 수행하고 있습니다 그러나 이번에는 완전히 다른 것에 대해 이야기하고 있습니다 이것은 데이터를 확인하는 간단한 방법입니다 우리는 그래프와 뉴토끼 330 수염도들을 것입니다 그 이유는 분석 방법을 선택할 때 데이터를 확인하는 것이 필수적이기 때문입니다 목표에 따라이 시점에서 솔루션이 표시 될 수 있습니다
뉴토끼 330 수염이란?
Box-Whisker Plots는 5 수 요약 통계라고합니다
Q0/4 : 최소 값
Q1/4 : 사 분위수
Q2/4: Median (second quartile, median)
Q3/4 : 상부 사 분위
Q4/4 : 최대 값
10473_10522
Wikipedia "Box and Whiskers"정의
이것은! !
~~은 내가 말할 것의 드문 예이지만 Wikipedia보다 적습니다 그러나 텍스트 만 사용하여 다이어그램을 상상하기가 어렵 기 때문에 Python과 Iris 뉴토끼 330 세트를 사용하여 직접 작성해 보겠습니다 실행 환경은 Google 공동 작업입니다
가져 오기 matplotlibpyplot as plt From Sklearn 가져 오기 뉴토끼 330 세트 가져 오기 PDAS AS PD % matplotlib inline #로드 뉴토끼 330 iris = DataSetsLoad_iris () 뉴토끼 330 = pddataframe (irisdata) pltboxPlot (dataloc [:, 0 ]) dataloc [:, 0 ] describe () # 기본 통계 확인 |
당신은 한 눈에 숫자 5의 요약을 볼 수 있습니다 주석이 편집되어 이미지에 추가됩니다 중앙의 정사각형은 "뉴토끼 330"라고하며 뉴토끼 330에서 뻗어있는 선을 "수염"이라고합니다 일부 라이브러리에는 최대 또는 최소 수염이 없을 수도 있습니다 사실, 더 많은 것이 있습니다 이 경우, 위는 일반적으로 "(제 3 사 분위수 - 1 사 분위수) * 15 + 3 사 분위"및 "최대 값"입니다 그 범위에서 나오는 모든 것은 특이 치로 취급 될 수 있으며, 이는 다이어그램의 인상을 특이 치로 끌어 당기지 않아도됩니다
뉴토끼 330 플롯에서 알 수있는 것
이전 섹션에 사용 된 IRIS 뉴토끼 330 세트를 사용하여 간단히 설명하고 싶습니다 아이리스 뉴토끼 330 세트는기계 학습 저장소에 의해 제공된 뉴토끼 330 세트입니다 도전은 irise 품종을 꽃잎 및 욱신 거리는 뉴토끼 330와 구별하는 것입니다 솔직히 말해서,이 많은 뉴토끼 330로 다양한 방법을 시험해 보면 잘 작동하지만 뉴토끼 330 수가 증가함에 따라 일정 수준의 초점으로 분석하고 싶습니다 따라서 먼저 뉴토끼 330 트렌드를 확인할 때 Box 및 Whisker 플롯을 사용합니다 개인적으로, 나는 산란 음모와 히스토그램을보고 싶지만, 이번에는 그들이 방해가되지 않기 때문에 그들을 건너 뛸 것입니다
각 지표뉴토끼 330 패턴을 그리자
# 뉴토끼 330 준비 datacolumns = irisfeature # 열 이름 정의 뉴토끼 330 [ "레이블" ] = iristarget_names [iristarget] # 다양한 품종 databoxPlot (by = "레이블" , 레이아웃 = ( 4 , 1 ), figsize = ( 4 , 10 )) # 드로잉 |
꽃잎 길이와 너비뉴토끼 330가중첩 없음분명히, 두 지표 사이에는 상당한 차이가 있습니다 분류 할 수뉴토끼 330 것 같습니다! 또한 두 개의 지표만으로 괜찮은 결과를 얻을 수뉴토끼 330 것 같습니다
그래서 우리는 의사 결정 트리에 선택된 두 지표와 모든 지표를 사용하려고합니다 목적은 비교하는 것이므로 교육 및 테스트 뉴토끼 330가 분리되지 않습니다
인쇄 (datacolumns) # 열 이름 확인 # 사용할 열 선택 target_columns = datacolumns [[ 2 , 3 ]] 인쇄 (target_columns) |
결과 :
index ([u'sepal 길이 (cm) ', U'Sepal 너비 (cm)', u'petal 길이 (cm) ', u'petal 너비 (cm)', u'label '], dtype ='object ')
index ([u'petal length (cm) ', u'petal 너비 (cm)'], dtype = 'object')
From Sklearntree 가져 오기 DecisionTreeClassifier 의사 결정 트리 별 분류기 CLF = DecisionTreeClassifier (max_depth = 4 ) # 간단한 모델로 만들기위한 지표 수의 깊이 # 2 지표 만 CLF = clffit (data [target_columns], data [ "레이블" ]) print ( "2 기능" , clfscore (data [target_columns], data [ "레이블" ])) # 모든 지표 CLF = clffit (datacolumns [ 0 : 4 ]], 뉴토끼 330 [ "레이블" ]) print ( "모든 기능" , clfscore (datacolumns [ 0 : 4 ]], 뉴토끼 330 [ "레이블" ])) |
더 정확한 모든 것을 추가했지만 지표가 두 배가 되었음에도 불구하고 0입니다7%정확도는 개선되었습니다 우리는 두 지표만으로 괜찮은 결과를 얻었습니다!
정말 유용한 상황
데이터를 집계 할 때 많은 배포와 기본 통계를 살펴 봐야 할 단계가있을 수 있습니다 물론, 자세한 확인에는 숫자가 필요하지만 뉴토끼 330 수염이 거친 확인에 충분하다고 생각합니다 실제로, 나는 또한 박스 플롯 및 이벤트를 오버레이하여 분석에 사용할 집계 된 값을 선택했습니다 혼합 가우시안 모델을 사용한 분포 추정 및 발생 가능성에서 특이 치를 찾는 것과 같이 선택 후에도 분석을 수행해야하지만, 우리는 단순히 지표를 좁히면서 더 깊은 분석을 수행 할 수있었습니다 또한 계산 자원과 인적 비용을 절약했습니다
결론
어떻게 마음에 드 셨나요? 이것은 연구 단계에서 잘 확립 된 데이터 세트 만 사용할 때만 종종 접촉하지 않는 부분이므로 다시 한번 합류했지만 아마도 매우 분명하다고 뉴토끼 330합니다
광 분포 예측과 같은 상자 위스커 플롯으로 수행 할 수있는 다른 많은 것들이 있습니다 실제로, 다양한 시각화와 분석을 시도하는 것이 더 낫지 만 뉴토끼 330 휘 스커 다이어그램을 파고 들면 즐길 수 있습니다! 산란 플롯, 히스토그램 및 바이올린 다이어그램과 같은 다른 많은 다이어그램도 있습니다
또한 다이어그램을 사용하여 분석에 익숙해지면 보고서 자료에 게시 될 다이어그램에 대해 걱정하기가 어렵습니다 시도해보세요! 기회가 있다면 산점도를 소개하고 싶습니다
저자 프로필

- TDI 디지털 혁신 기술 부서
- 회사에 합류 한 후 6 개월 동안 Robocon 활동에 중점을두고 있습니다 Java 엔지니어로 짧은 시간을 보낸 후, 나는 뉴토끼 330 분석, 기계 학습 및 딥 러닝 주제를 연구하고 있습니다
나는 내가 가져 갔고 새로운 지원을 찾고뉴토끼 330 유봉 손잡이를 착용하는 동안 시도하고 오류를하고 있습니다
이 저자의 최신 기사
픽업!2020 년 10 월 30 일Java의 Python/Keras에서 훈련 된 모델을 실행하는 것이 더 빠르지 않았을 것입니다
IT 열2020 년 8 월 4 일Eclipse에서 Maven을 사용하여 DL4J를 사용하는 데 어려움이뉴토끼 330 경우
ai2019 년 11 월 29 일AI를 확인하고 개발할 때 뉴토끼 167 하드웨어 조건은 무엇입니까?
ai2019 년 8 월 5 일뉴토끼 167 Google 공동 작업의 무료 GPU 환경을 사용해